Hello GPT-4o

Original renee创业狗 Renee 创业随笔

2024-10-10

更新重点

昨天OpenAI正式发布GPT-4o，能够实时处理音频、视觉和文本信息。

GPT-4o（“o”代表“全能”omni）是朝向更自然的人机交互迈出的一步——它能够接收文本、音频和图像的任意组合，并生成文本、音频和图像的任意组合输出。它能在短至232毫秒内响应音频输入，平均响应时间为320毫秒，与人类在对话中的响应时间相当。

在英文和编程文本处理上，GPT-4o达到了与GPT-4 Turbo相同的性能，同时在非英语语言的文本处理上有显著提升。GPT-4o在视觉和音频理解方面相比现有模型有显著优势。GPT-4o训练了一个全新的模型，该模型在文本、视觉和音频方面进行端到端处理，这意味着所有输入和输出都由同一个神经网络处理。

成本

开发者可以通过 API 访问 GPT-4o，作为文本和视觉模型使用。相比 GPT-4 Turbo，GPT-4o 的速度提高了两倍，价格减半，且请求频率限制提高了五倍。OpenAI计划在未来几周内，向一小部分受信任的白名单开发者通过 API 推出 GPT-4o 的新音频和视频功能支持。

同时更新了新分词器，使得多种语言的压缩效果得到显著体现。例如，中文的分词效率显著提升，令牌数量减少了1.4倍。你好，我的名字是GPT-4o。我是一种新型的语言模型，很高兴见到你！这句话的令牌数量从之前的34个减少到了24个。

先看视频

再看效果

Mac 版本

ChatGPT 最近也推出了 Mac 版本，看来 GPT 与苹果的合作越来越密切了。我之前在一个播客中听到，苹果营销部门的许多人都加入了 OpenAI。（参考播客：https://castbox.fm/vd/660257666）

在 Mac 电脑上，通过按 ⌥ Option + Space 就能直接启用 ChatGPT，操作体验非常流畅。

下面就是用Mac版本的GPT-4o给我的关于GPT-4o的更新。

评测

GPT-4o 在文本处理、推理和编程智能方面达到了 GPT-4 Turbo 级别的表现，同时在多语言处理、音频和视觉能力上设立了新的高标准。

改进的推理能力 - GPT-4o 在 0-shot COT MMLU（通用知识问答）上创下了 88.7% 的新高分。所有这些评估都采用了新的简单评估方法。
音频语音识别性能 - GPT-4o 在所有语言上显著提升了语音识别性能，特别是在资源较少的语言上，相比 Whisper-v3 有显著改进。
音频翻译性能 - GPT-4o 在语音翻译方面设立了新的行业标准，并在 MLS 基准测试中超越了 Whisper-v3。
M3Exam - M3Exam 基准测试是一项多语言和视觉评估，包括来自不同国家标准化测试的多项选择题，有时包括图表和图解。GPT-4o 在所有语言的这一基准测试中表现优于 GPT-4。（对于斯瓦希里语和爪哇语，没有提供视觉结果，因为这些语言的视觉题目少于5题。）
视觉理解评估 - GPT-4o 在视觉感知基准测试中达到了行业领先水平。所有视觉评估均为 0-shot，包括 MMMU、MathVista 和 ChartQA。

其他免费工具

在这次发布会上，除了 GPT-4o 外，还为 ChatGPT 的免费用户提供了更多工具：

体验 GPT-4 级别的智能
从模型和网络上获取响应：）
分析数据并创建图表：）
讨论你拍摄的照片
上传文件以获得总结、写作或分析的帮助（新窗口中打开）
探索并使用 GPTs 及 GPT 商店
利用“记忆”功能构建更有帮助的体验

修改于

继续滑动看下一个

Renee 创业随笔

向上滑动看下一个

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

Hello GPT-4o

更新重点

成本

先看视频

再看效果

Mac 版本

评测

GPT-4o 在文本处理、推理和编程智能方面达到了 GPT-4 Turbo 级别的表现，同时在多语言处理、音频和视觉能力上设立了新的高标准。

其他免费工具

您可能也对以下帖子感兴趣

继济南解放阁鬼火炸街少年后，汕头又出现了大量炸街少年。

白石洲拆迁后，那些上学奔波的孩子都去哪儿了？

重阳节

杨绛：记住，和周围人搞好关系的秘诀就是，不要和他们分享任何成功的喜悦，和任何开心的事儿！

一个医保局长之死

生成图片，分享到微信朋友圈

Hello GPT-4o

更新重点

成本

先看视频

再看效果

Mac 版本

评测

GPT-4o 在文本处理、推理和编程智能方面达到了 GPT-4 Turbo 级别的表现，同时在多语言处理、音频和视觉能力上设立了新的高标准。

其他免费工具

您可能也对以下帖子感兴趣